政策梯度方法被广泛用于学习控制政策。它们可以轻松地分配给多名工人,并在许多领域中达到最新结果。不幸的是,它们表现出很大的差异,随后遭受了高样本的复杂性,因为它们在整个轨迹上汇总了梯度。在另一个极端情况下,计划方法,例如树木搜索,使用考虑未来LookAhead的单步过渡来优化策略。这些方法主要用于基于价值的算法。基于计划的算法需要一个正向模型,并且在每个步骤上都是计算密集型的,但更有效。在这项工作中,我们介绍了SoftTreemax,这是将树搜索整合到策略梯度中的第一种方法。传统上,针对单个状态行动对计算梯度。取而代之的是,我们基于树的策略结构在每个环境步骤中利用树叶的所有梯度。这使我们能够将梯度的差异减少三个数量级,并与标准策略梯度相比,从更好的样本复杂性中受益。在Atari上,与分布式PPO相比,SoftTreemax在运行时的表现高达5倍。
translated by 谷歌翻译
Action recognition models have achieved impressive results by incorporating scene-level annotations, such as objects, their relations, 3D structure, and more. However, obtaining annotations of scene structure for videos requires a significant amount of effort to gather and annotate, making these methods expensive to train. In contrast, synthetic datasets generated by graphics engines provide powerful alternatives for generating scene-level annotations across multiple tasks. In this work, we propose an approach to leverage synthetic scene data for improving video understanding. We present a multi-task prompt learning approach for video transformers, where a shared video transformer backbone is enhanced by a small set of specialized parameters for each task. Specifically, we add a set of ``task prompts'', each corresponding to a different task, and let each prompt predict task-related annotations. This design allows the model to capture information shared among synthetic scene tasks as well as information shared between synthetic scene tasks and a real video downstream task throughout the entire network. We refer to this approach as ``Promptonomy'', since the prompts model a task-related structure. We propose the PromptonomyViT model (PViT), a video transformer that incorporates various types of scene-level information from synthetic data using the ``Promptonomy'' approach. PViT shows strong performance improvements on multiple video understanding tasks and datasets.
translated by 谷歌翻译
我们研究了在$ n $均质代理之间分配$ t $依次到达项目的问题,即每个代理必须收到所有项目的预先指定的分数,目的是最大化代理商的总估值,分配给他们的项目的总估值。假定代理在每轮中对该项目的估值为I.I.D。但是它们的分布是中央计划者未知的先验。因此,中央规划师需要从观察到的价值中隐含地学习这些分布,以便选择良好的分配策略。但是,这里的另一个挑战是,代理商是战略性的,并激励他们误导其估值,以便获得更好的分配。这使我们的工作与在线拍卖设计设置不同,这些设置通常假设已知的估值分布和/或涉及付款,也可以从不考虑战略代理的在线学习环境中进行付款。为此,我们的主要贡献是一种基于在线学习的分配机制,大约是贝叶斯激励兼容的,当所有代理人都是真实的时,与最佳离线分配政策相比,在所有代理商的效用中保证了sublinear的遗憾。
translated by 谷歌翻译
基础模型(FMS)已证明了前所未有的功能,包括零拍学习,高保真数据合成和范围内的概括。但是,正如我们在本文中所显示的那样,FMS在专家任务上的开箱即用表现较差(例如,从语言查询中检索汽车手册技术插图),数据是看不见的,或者属于长尾的数据用于FM预训练的大型数据集的数据分布的一部分。这强调了在此类专家任务上明确评估和芬太尼FMS的必要性,这可以说是在实际现实世界中最重要的任务。在本文中,我们提出了围绕教授FMS了解技术文档的任务,通过学习将其图形插图与相应的语言描述相匹配的任务围绕着了解技术文档的任务。我们的FETA基准重点是公共汽车手册和销售目录手册中的文本对图像和图像到文本检索。 FETA配备了完全自动注释提取的程序(接受后将发布代码),从而使Feta轻松扩展到将来更多的文档类型和应用域。我们的自动注释导致自动性能指标显示,该指标与在人类策划注释中计算的指标一致(也发布)。我们提供多个基线和对FETA的流行FM的分析,从而导致一些有趣的发现,我们认为这对FM社区非常有价值,为现实世界中FMS应用于当前被标准基准的“忽视”的实践专家任务铺平了道路。在常见对象上。
translated by 谷歌翻译
基于自我监督的基于学习的预科可以使用小标签的数据集开发可靠和广义的深度学习模型,从而减轻了标签生成的负担。本文旨在评估基于CL的预处理对可转介的性能与非转介糖尿病性视网膜病(DR)分类的影响。我们已经开发了一个基于CL的框架,具有神经风格转移(NST)增强,以生成具有更好表示和初始化的模型,以检测颜色底面图像中的DR。我们将CL预估计的模型性能与用成像网权重预测的两个最先进的基线模型进行了比较。我们通过减少标记的训练数据(降至10%)进一步研究模型性能,以测试使用小标签数据集训练模型的鲁棒性。该模型在EYEPACS数据集上进行了培训和验证,并根据芝加哥伊利诺伊大学(UIC)的临床数据进行了独立测试。与基线模型相比,我们的CL预处理的基础网模型具有更高的AUC(CI)值(0.91(0.898至0.930),在UIC数据上为0.80(0.783至0.820)和0.83(0.783至0.820)(0.801至0.853)。在10%标记的培训数据时,在UIC数据集上测试时,基线模型中的FoldusNet AUC为0.81(0.78至0.84),比0.58(0.56至0.64)和0.63(0.56至0.64)和0.63(0.60至0.66)。基于CL的NST预处理可显着提高DL分类性能,帮助模型良好(可从Eyepacs转移到UIC数据),并允许使用小的带注释的数据集进行培训,从而减少临床医生的地面真相注释负担。
translated by 谷歌翻译
复杂的事件处理(CEP)是一组方法,可以使用复杂和高度描述性模式从大规模数据流中提取有效的知识。许多应用程序,例如在线金融,医疗保健监控和欺诈检测,使用CEP技术来实时捕获关键警报,潜在威胁或重要通知。截至今天,在许多领域,模式是由人类专家手动定义的。但是,所需的模式通常包含令人费解的关系,而人类很难检测到,并且在许多领域中,人类的专业知识都是稀缺的。我们提出了救赎主(基于加固的CEP模式矿工),这是一种新颖的增强和主动学习方法,旨在采矿CEP模式,允许在减少所需人类努力的同时提取知识的扩展。这种方法包括一种新颖的政策梯度方法,用于庞大的多元空间,以及一种结合强化和积极学习以进行CEP规则学习的新方法,同时最大程度地减少培训所需的标签数量。救赎主的目标是使CEP集成在以前无法使用的域中。据我们所知,救赎主是第一个提出事先观察到的新CEP规则的系统,并且是第一种旨在增加专家没有足够信息的领域模式知识的方法。我们对各种数据集的实验表明,救赎主能够扩展模式知识,同时超过了几种用于模式挖掘的最先进的强化学习方法。
translated by 谷歌翻译
我们表明,具有随机性访问的神经网络可以通过扩增胜过确定性网络。我们称此类网络融合的神经网络或CFNN。我们表明,CFNN可以将$ d $维球的指标近似于任意准确性,仅使用2层和$ \ Mathcal {o}(1)$ Neurrons,其中显示了2层确定性网络所需的$ \ \欧米茄(E^d)$神经元,指数改进(ARXIV:1610.09887 [CS.LG])。我们证明了一个高度不平凡的结果,即对于几乎任何分类问题,都存在一个简单的网络,可以解决该网络权重的足够强大的发电机。结合了这些结果,我们猜测,对于大多数分类问题,有一个CFNN可以比任何确定性网络更高的精度或更少的神经元解决。最后,我们使用CIFAR10和CIFAR100上的新型CFNN体系结构实验验证了我们的证明,从基线提高了9.25 \%。
translated by 谷歌翻译
我们提出,生命的连续性及其演变来自称为合身生存的互动群体过程。该过程取代了达尔文人的个人斗争和适合生存理论,这是进化的主要机制。在这里,我们提出,自然过程与计算机自动编码功能相关。自动编码是一种机器学习技术,用于提取输入数据基本特征的紧凑表示。通过自动编码降低维度性,建立一个代码,该代码能够基于解码相关数据的各种应用程序。我们确定以下几点:(1)我们通过其物种相互作用代码定义一个物种,该物种由该物种与其外部环境和内部环境的基本核心相互作用组成;核心相互作用由包括分子细胞 - 生物在内的多尺度网络编码。 (2)通过可持续变化的物种相互作用代码进行进化;这些变化的代码既反映和构建物种环境。物种的生存是通过我们称为自然自动编码的内容来计算的:输入相互作用的阵列会产生物种代码,该代码通过解码为持续生态系统相互作用的网络而生存。 DNA只是天然自动编码的一个元素。 (3)自然自动编码和人工自动编码过程明确定义了相似性和差异。天然自动编码的生存为进化机理提供了新的启示,并解释了为什么可居住的生物圈需要多样化的拟合组相互作用。
translated by 谷歌翻译
概括跨越不同视觉域的学习表现的能力,例如在真正的照片,剪贴画,绘画和草图之间是人类视觉系统的基本容量。在本文中,不同于利用一些(或全部)源域监控的大多数跨域工作,我们接近一个相对较新的,非常实用的无监督域泛化(UDG)设置在既不源也不在源域中没有培训监督。我们的方法是基于跨域(BRAD)的桥梁​​的自我监督学习 - 辅助桥域附有一组从每个训练域的Brad将视觉(图像到图像)映射保留的一组语义。 BRAD和MAPPAPAPPED(端到端)与对比的自我监督表示模型一起学习(端到端),其用语义对齐每个域将每个域对齐,因此隐含地驱动所有域(见或看不见)语义上彼此对齐。在这项工作中,我们展示了如何使用边缘正则化的布拉德,我们的方法在多个基准和一系列任务中实现了显着的增益,包括UDG,少量UDA和跨多个域数据集的无监督概括(包括指向未经看明域的概念和课程)。
translated by 谷歌翻译
存储在文档中的信息的数字转换是知识的伟大来源。与文本文本相比,嵌入式文档图形的转换,例如图表和地图,已经探讨了。我们介绍了一种方法和系统,用于将文档图表的端到端转换为机器读取的表格数据格式,可以在数字域中容易地存储和分析。我们的方法提取和分析图表以及其图形元素和支持结构,例如图例,轴,标题和标题。我们的检测系统基于神经网络,完全培训了合成数据,消除了数据收集的限制因素。与以前的方法相反,我们的网络使用边界盒检测图形元素,我们的网络特征辅助域特定的热带预测,可以精确地检测不适合矩形边界推定的饼图,线和散点图。定性和定量结果显示出高的稳健性和精确度,改善了以前的流行基准
translated by 谷歌翻译